CHAPITRE IV
Discussion et généralisation du modèle
Puisque les résultats de simulations appuient la cohérence interne du modèle Eidos, il est désormais possible de discuter de sa pertinence comme modèle du processus de catégorisation. L'analyse doit porter autant sur le développement de l'espace-stimuli que sur la qualité de la performance obtenue et devrait amener la discussion du rôle précis des différents paramètres introduits. L'examen des contraintes auxquelles sont soumis ces paramètres permet alors de garantir la généralisation du modèle à nombre d'autres situations. Finalement, l'étude des limites du modèle suggère les pistes à suivre pour les recherches ultérieures.

Développement de l'espace-stimuli

L'analyse théorique du second chapitre a suggéré que l'espace-stimuli, c'est-à-dire le sous-espace de l'espace-réseau auquel est limitée la rétroaction positive, ne soit pas de dimension supérieure au nombre K de catégories à apprendre et que son orientation doit assurer qu'il fasse intersection avec les 2K coins-cibles de l'hypercube. Les résultats des deux premières simulations montrent que, lorsque l'apprentissage se fait à partir des prototypes, la règle de l'équation 15 assure l'émergence d'un tel espace et ce, en dépit du fait que ceux-ci soient corrélés.

Lorsque l'apprentissage se fait à partir d'exemples des prototypes, la règle d'apprentissage doit être complétée d'un processus d'oubli puisque la règle de l'équation 15 permet l'apprentissage de toute composante particulière d'un exemple et, par conséquent, l'espace-stimuli se développe de façon à considérer équivalent tout vecteur-état présenté au réseau. Mais, en décomposant chaque exemple en une somme du vecteur-prototype et du vecteur-bruit b, il apparaît que le premier est implicitement présenté plus souvent au réseau que le second. Le paramètre d'oubli utilise cette différence pour créer une discrimination entre les forces de rétroaction établies dans l'espace des vecteurs-prototypes et celles des autres dimensions de l'espace-réseau. Les valeurs propres associées à ces dernières ne peuvent être totalement annulées, mais la présence du paramètre ? établit un seuil sous lequel la rétroaction qu'elles engendrent est insuffisante pour maintenir les trajectoires dans les directions qui leur sont associées. Il existe donc des valeurs de ? pour lesquelles la rétroaction positive effective est approximativement limitée à l'espace qui contient les vecteurs-prototypes et qui fait intersection avec les coins-cibles de l'espace-réseau.

Par rapport à la règle du modèle BSB, la règle d'apprentissage du modèle Eidos génère un espace-stimuli plus adéquat. Dans le modèle BSB, l'utilisation d'une règle strictement hebbienne nécessite, en présence de stimuli corrélés, l'imposition de limites à l'apprentissage. Or, ces limites amènent des rotations superflues du vecteur-état pendant l'apprentissage et finissent par générer un espace-stimuli sur-dimensionné. L'utilisation d'une règle double, qui permet un équilibre dynamique des modifications hebbienne et anti-hebbienne, apporte une solution aux problèmes que causaient les limites à l'apprentissage et elle est suffisante pour engendrer un espace-stimuli qui garantit un rappel associatif optimal. De plus, cette règle élimine les problèmes soulevés par rapport aux autres modèles connexionnistes présentés au premier chapitre. En effet, le modèle n'est défini que par une seule règle d'apprentissage qui ne nécessite aucun superviseur externe. De plus, les réponses catégoriques ne sont pas arbitraires et prédéfinies, mais dépendent des tendances centrales des distributions de stimuli auxquels le réseau est confronté.

Performance en simulation

Puisque la règle d'apprentissage du modèle Eidos permet le développement d'un espace-stimuli conforme à l'argument sur la correspondance réseau/environnement élaboré au second chapitre, les conséquences sur la capacité de catégorisation du réseau sont évidentes. Les résultats de la première simulation montrent que le réseau répond avec grande fidélité. En effet, même pour des exemples formés d'une composante spécifique aussi grande que celle du prototype, le taux d'erreur est très faible, soit 5%.

L'analyse de la convergence du vecteur-état vers le coin-cible montre cependant que la règle de transmission n'emploie que les limites de saturation des unités pour assurer cette convergence. La solution suggérée pour permettre cette convergence dès les premières itérations a été d'introduire, dans la règle de transmission, un retour exponentiel de l'activité des unités vers leur niveau de base. Les résultats de la seconde simulation montrent que ce changement ne modifie pas la capacité de catégorisation du réseau puisque les taux d'erreur de catégorisation sont comparables.

Lorsque l'apprentissage se fait à partir des exemples plutôt que des prototypes, l'introduction du phénomène d'oubli assure, pour certaines valeurs de son paramètre ?, suffisamment de discrimination entre les valeurs propres de l'espace-stimuli désiré et les autres pour assurer une bonne qualité de rappel. Les résultats de la troisième simulation indiquent que les taux d'erreur de catégorisation sont équivalents à ceux obtenus lors des autres simulations. De plus, les erreurs effectuées consistent toujours en des confusions entre deux prototypes et non pas en des réponses arbitraires. L'expérience de Monte-Carlo tend à confirmer que les seuls coins stables du réseau, qui définissent les seules réponses qu'il peut fournir, sont les coins associés aux prototypes.

Ces taux d'erreur sont à contraster avec ceux obtenus lors des simulations du modèle BSB. Or, puisque la méthodologie de simulation employée est identique à celle de Proulx (1986), à l'exception de l'espace-réseau qui contient une dimension supplémentaire, les résultats sont directement comparables. Dans cette étude, le niveau maximum de bruit utilisé lors des tests de rappel n'était que de 40%; le taux moyen d'erreur était alors très élevé, soit 54%. Même dans la condition minimale, où p = 10%, le taux moyen d'erreur était de 33%. La règle d'apprentissage du modèle Eidos a donc un impact majeur lorsqu'évaluée sous le critère de la performance de catégorisation.

Un autre contraste important avec le modèle BSB se retrouve au niveau du type de réponse fournie. En effet, pour le modèle Eidos, il y a identité entre le vecteur représentant la réponse catégorique et le vecteur-prototype puisque, sur présentation d'un exemple, le réseau reconstruit le prototype correspondant et répond par celui-ci. À l'inverse, dans le cas du modèle BSB, le coin-cible n'est pas associé de façon aussi directe avec le vecteur-prototype puisque ce coin peut être quelconque, en autant qu'il soit distinct des coins associés aux autres prototypes. Pour déterminer le coin qui définit la bonne réponse, il est donc nécessaire de présenter le vecteur-prototype au réseau. Par conséquent, en supposant que ce prototype n'existe pas dans l'environnement, mais qu'il n'est que le résultat de l'apprentissage, cette méthode rend difficile l'identification des réponses adéquates. Comme le montre la troisième simulation, le modèle Eidos permet d'éviter ce problème puisque le réseau fournit une réponse catégorique qui correspond à la tendance centrale de la distribution des exemples d'un prototype qui peut n'être que virtuel.

Quant aux résultats sur le temps de réponse, ils ne doivent pas être interprétés directement. En effet, ils ne sont présentés qu'à titre indicatif et comparatif puisque leur valeur exacte dépend des paramètres de la règle d'apprentissage, qui déterminent l'amplitude des valeurs propres, ainsi que du seuil de saturation des unités. Mais, à titre indicatif, ils montrent que le nombre d'itérations requises pour atteindre le coin-cible est peu élevé, soit moins de 100 itérations. De plus, la comparaison des temps de réponse des trois simulations permet de faire certaines observations à propos de l'impact des paramètres de maintien et d'oubli. En effet, le paramètre ? ne modifie pas le temps de réponse aux prototypes, mais il l'améliore un peu lorsque des exemples sont présentés. Puisque ce paramètre a pour effet d'assurer une convergence immédiate du vecteur-état, celui-ci est plus près du coin-cible lorsque les unités commencent à saturer et, par conséquent, le temps de réponse est réduit. Quant à l'impact du paramètre ?, il augmente le temps de réponse puisque les valeurs propres ne peuvent pas atteindre des valeurs aussi élevées qu'en son absence. De plus, l'impact du paramètre ? est diminué puisque, lorsque l'apprentissage se fait à partir d'exemples, la règle d'apprentissage génère une certaine force de rétroaction dans l'espace orthogonal à celui qui contient les vecteurs-prototypes.

Rôle des paramètres et généralisation du modèle

Les simulations présentées au chapitre précédent montrent que la règle d'apprentissage du modèle Eidos permet le développement d'un espace-stimuli adéquat et une bonne performance de rappel. Cependant, il est crucial d'établir sous quelles contraintes de tels résultats sont assurés. Puisque ces résultats reposent sur un choix arbitraire de paramètres, il est nécessaire d'établir les relations permises entre ceux-ci, afin d'assurer un maximum de généralisation au modèle. En plus de démontrer que le modèle n'est pas soumis à des valeurs très précises de ses paramètres, l'établissement de ces conditions de fonctionnement permet de déterminer les critères d'optimisation qui seront utiles pour les simulations ultérieures.

Les quatre paramètres de la règle d'apprentissage. Les quatre paramètres fondamentaux qui distinguent le modèle Eidos sont ceux qui définissent la règle d'apprentissage de l'équation 15. Cette règle est caractérisée par l'interaction dynamique de modifications synaptiques hebbienne et anti-hebbienne. Le rôle des paramètres a et ß est de déterminer respectivement l'ampleur de chaque changement hebbien ou anti-hebbien tandis que les paramètres p et n établissent un délai entre ces deux types de transformation. Telle que démontrée au second chapitre, la seule condition qui assure le développement contrôlé d'un espace-stimuli assurant une rétroaction positive est celle où a > -ß et où p < n.

Cependant, cette contrainte n'est pas suffisante puisque l'interaction entre ces paramètres doit garantir que la valeur ? puisse être atteinte à l'intérieur d'un nombre fini d'essais d'apprentissage. Or, puisque que la fonction f(?), qui détermine le changement des valeurs propres à chaque essai d'apprentissage, possède les propriétés suivantes

  (123)

il est possible que le changement de ? soit si brutal d'un essai d'apprentissage au suivant que cette valeur oscille autour du point critique ? sans jamais l'atteindre, c'est-à-dire que

  (124)

Pour éviter de telles oscillations non convergentes, il faut que

  (125)

au point ?. Bien qu'assurant la convergence des valeurs propres vers le point critique ? cette condition permet l'existence d'oscillations convergentes qui rendent difficile l'analyse du réseau puisque, pendant l'apprentissage, certaines valeurs propres peuvent être plus grandes que ?. Pour éviter toute oscillation du spectre des valeurs propres et en assurer ainsi un développement strictement progressif il faut restreindre l'équation 125 à

  (126)

au point ?. Puisque ? est connue par l'équation 25, cette condition devient

  (127)

Cette équation montre que la condition présente trois paramètres libres et établit, avec la condition de l'équation 24, les contraintes sur le quatrième paramètre.

Ainsi, par exemple, en fixant les paramètres ß, p et n

  (128)

S'il existe une valeur a qui remplit cette condition et celle qui exige que a > -ß, alors la convergence non oscillante de la valeur propre ? vers la valeur critique ? est assurée. De plus, en fixant a à sa valeur la plus grande, donc sous l'égalité de l'équation 127, la vitesse de convergence est maximale. Par conséquent, la vitesse d'apprentissage, mesurée en nombre d'essais, est la plus rapide possible pour l'ensemble de trois paramètres fixes. En termes pratiques, il est possible de fixer p, n et un ratio  entre a et ß, c'est-à-dire

  (129)

qui permet de calculer a selon l'équation

  (130)

et, évidemment,

  (131)

L'analyse qui précède montre que les contraintes sur les paramètres de la règle d'apprentissage sont peu sévères. Le développement et la stabilisation d'un espace-stimuli adéquat ne dépend pas de leur valeur précise mais seulement de relations minimales qu'ils doivent entretenir entre eux.

Le paramètre du seuil de saturation des unités. Puisque le réseau génère une rétroaction positive dans les directions engendrées par l'espace-stimuli, il est nécessaire d'y fixer des limites afin d'assurer l'existence d'états stables qui définissent les réponses catégoriques. Les seuils de saturation déterminent ces limites en fixant les valeurs minimale et maximale que peut prendre l'activité de chaque unité par rapport à son niveau de base. La seule contrainte à laquelle est soumis le paramètre ? est d'être suffisamment élevé pour qu'il ne soit jamais atteint pendant l'apprentissage. En effet, si un de ce seuils est atteint avant les n itérations requises pour effectuer les deux types de modification synaptique, le vecteur-état subit des rotations inadéquates et l'espace-stimuli résultant est sur-dimensionné. Lors des simulations, la méthode utilisée pour éviter ce seuil consistait à vérifier qu'aucune unité ne l'avait atteint lors des n premières itérations nécessaires à la modification anti-hebbienne. Si un seuil avait été atteint, ce qui ne fut jamais le cas, il aurait été augmenté d'un facteur proportionnel à la norme du vecteur-état. Cette méthode est cependant peu justifiable et il convient d'identifier les contraintes sur le paramètre ?.

Pour garantir qu'aucun vecteur n'atteigne un des seuils pendant l'apprentissage, il faut s'assurer que le vecteur-état le plus long après n itérations n'en atteigne aucun. Ce vecteur est nécessairement un vecteur propre dont la valeur propre est la plus grande du spectre. En respectant la contrainte de l'équation 127, la valeur propre maximale est déterminée par ?. Quant à la distance entre l'origine et chacun des seuils, elle est minimale au niveau des axes de l'espace-réseau. Par conséquent, lorsque les vecteurs initiaux sont normalisés, la distance suffisante correspond à la norme du vecteur-état qui résulte d'un essai d'apprentissage, qui a donc subi n itérations, avec un vecteur propre à valeur propre maximale et qui résiderait sur un axe de 

  (132)

qui, en substituant ? par l'équation 25, donne

  (133)

Au delà de ce seuil, la valeur du paramètre n'a comme conséquence que l'augmentation du temps de réponse, puisque celui-ci est d'autant plus court que ? est petit. Par conséquent, sous l'égalité de l'équation 133, le temps de réponse est optimal.

Le paramètre de maintien de l'activité des unités. La règle de transmission définie par l'équation 1 n'assure pas la convergence des vecteurs-états vers l'espace-stimuli tant que les unités n'ont pas commencé à saturer. La modification proposée pour assurer une convergence indépendante de l'atteinte des seuils de saturation a été d'introduire une tendance, pour toutes les unités, à retourner vers leur niveau d'activité spontanée. Cette régression exponentielle est d'autant plus accentuée que le niveau d'activité est éloigné du niveau de base. Symbolisée par le paramètre ?, cette modification amène la règle de transmission proposée à l'équation 80.

L'introduction de ce paramètre modifie la fonction f(?) définie par la règle d'apprentissage. Néanmoins, les capacités d'apprentissage du réseau sont inchangées et il demeure apte à générer un espace-stimuli adéquat. Bien que ? soit augmentée d'un facteur (1-?), cette hausse contrebalance la perte d'activité due au paramètre ?. Il faut cependant garantir que l'introduction de ce paramètre n'amène pas de contraintes supplémentaires sur les conditions définies pour les valeurs des autres paramètres.

Pour le rapport posé entre les quatre paramètres fondamentaux de la règle d'apprentissage, la condition de l'équation 126 devient

  (134)

au point ? maintenant défini par l'équation 85. L'introduction, dans cette équation, de la nouvelle valeur ?, amène la disparition du paramètre ? et la condition devient identique à celle de l'équation 127.

Quant à l'impact du paramètre ? sur la valeur minimale des seuils de saturation, il faut noter que même si ? est plus grande, la rétroaction globale demeure inchangée. Par conséquent, la longueur du vecteur-état suite à n itérations d'un vecteur propre situé sur un axe de l'espace-réseau est identique à celle obtenue précédemment. En effet, si ?o est la valeur ? obtenue en l'absence du paramètre ? et ?? est cette valeur obtenue en sa présence, la condition devient, par l'équation 87

  (136)

Le paramètre ? ne modifie donc ni les propriétés d'apprentissage du modèle, ni les contraintes établies entre les autres paramètres du modèle. Étant donnée cette indépendance, le seul critère qui détermine le choix de ce paramètre est de se situer dans l'intervalle ]0,1[. À l'intérieur de cet intervalle, plus ? tend vers la borne inférieure, plus la convergence du vecteur-état est rapide, mais cela se fait aux dépends de la vitesse d'apprentissage; la tendance vers la borne supérieure engendre la conséquence inverse.

Le paramètre d'oubli. Lorsque l'apprentissage se fait à partir des prototypes, l'espace-stimuli résultant est adéquat. Mais lorsque l'apprentissage se fait à partir d'exemples, il est nécessaire d'introduire un mécanisme de filtration qui restreint le développement de l'espace-stimuli dans les directions générées par les spécificités des exemples. En l'absence d'un tel mécanisme, la règle d'apprentissage définie à l'équation 15 engendre des valeurs propres em superflues pour les vecteurs propres de l'espace orthogonal à l'espace-stimuli désiré. L'introduction du phénomène d'oubli, c'est-à-dire la propriété de chaque connexion de retourner selon un processus exponentiel vers la valeur nulle, établit une nette discrimination entre l'espace défini par les vecteurs-prototypes et celui qui en est complémentaire.

L'ajout du paramètre d'oubli ? amène la modification de l'équation qui détermine le changement de la matrice A à chaque essai d'apprentissage. Cette nouvelle règle définit deux fonctions qui déterminent respectivement la croissance des valeurs propres ?m associées à l'espace-stimuli désiré et des valeurs propres em indésirables. Ces deux fonctions assurent des points de convergence distincts pour ces deux classes de valeurs propres. Cependant, elles rendent complexe l'analyse du modèle et il est difficile de déterminer a priori les valeurs de ? qui permettent une divergence adéquate des valeurs propres. Si ce paramètre est trop petit, quoique respectant la condition établie par l'équation 120, l'oubli est trop radical et l'espace-stimuli n'arrive pas à se développer. Par contre, si ? est trop grand, la discrimination entre les deux classes de valeurs propres est insuffisante pour empêcher l'apparition de coins-cibles non appropriés. Le recours à une évaluation par simulation pour identifier une valeur de ? acceptable illustre une des difficultés actuelles du modèle, d'autant plus que l'étendue des valeurs que peut prendre ce paramètre semble relativement restreinte.

Malgré cette limite, il convient de s'interroger sur l'impact de l'introduction du paramètre ? sur les conditions de généralisation établies précédemment. Pour les quatre paramètres fondamentaux, il s'agit de vérifier si la condition de l'équation 127 est applicable à la situation où les connexions se modifient également en fonction de l'oubli. Il faut donc que, pour tout ensemble de paramètres a, ß, p et n qui vérifie l'équation 127, l'équation

  (136)

soit vraie au point ? établi par l'équation 108. Or, ce point est difficile à déterminer, sinon que de façon empirique. Néanmoins, il est possible de vérifier cette équation en montrant que, pour toute valeur du paramètre ? inclus dans l'intervalle ]0,1[ et pour tout ensemble de paramètres satisfaisant l'égalité de l'équation 127: (a) il existe une seule valeur positive, appelée ?1, telle que l'égalité de l'équation 136 est vérifiée; (b) cette valeur ?1 est toujours supérieure à valeur critique ?o obtenue en l'absence du paramètre d'oubli; (c) f(?1) est toujours négatif et f(0) est toujours positif; (d) la dérivée de f(?) est supérieure à -1 pour toute valeur de ? incluse dans l'intervalle [0,?1[. Par conséquent, la valeur de ? est toujours plus petite que celle de ?1 et la dérivée de f(?) est toujours supérieure à -1 au point ?.

Pour déterminer la valeur de ?1, il s'agit de poser l'égalité de l'équation 136 au point ?1, ce qui donne

  (137)

Or, puisque ?o est positive et que ? se situe dans l'intervalle ]0,1[, alors

  (138)

De plus,

  (139)

et

  (140)

Par conséquent,

  (141)

Finalement, la condition de l'équation 136 peut se décomposer sous la forme

  (142)

Or, puisque

  (143)

et que

  (144)

où

  (145)

et puisque

  (146)

alors

  (147)

En considérant simultanément les équations 141 et 147, il faut conclure que l'équation 136 est vérifiée pour tout ensemble de paramètres qui satisfait l'égalité de l'équation 127. Si cet ensemble vérifie l'équation 127 sans en satisfaire l'égalité, alors

  (148)

au point ?1. Par une analyse identique à la précédente, et puisque

  (149)

au point ?1, il faut conclure que

  (150)

Par conséquent, tout ensemble de paramètres satisfaisant l'équation 127 vérifie également l'équation 136.

Quant à l'impact du paramètre ? sur les seuils de saturation, il sera nul s'il est possible de s'assurer que la valeur propre maximale obtenue en présence du paramètre d'oubli ne dépasse pas celle obtenue en son absence (?o). Si la valeur ? de l'équation 108 est toujours plus petite que ?o, alors la condition de l'équation 133 est suffisante pour assurer qu'aucun vecteur-état n'atteigne l'un des seuils pendant les n premières itérations nécessaires à l'application de la règle d'apprentissage. Cette affirmation est vraie lorsque la condition de l'équation 127 est respectée. En effet, si, pour toute valeur de ? incluse dans l'intervalle [0,1]

  (151)

et vue la contrainte de l'équation 139, alors il faut conclure que

  (152)

Pour démontrer que l'équation 151 est vraie lorsque la condition de l'équation 127 est respectée, il s'agit de prouver que

  (153)

En appelant respectivement q(?) et r(?) les fonctions placées à gauche et à droite de cette inégalité, alors

  (154)

et

  (155)

De plus, sur l'intervalle [0,1], la fonction q(?) n'admet qu'un seul maximum au point

  (156)

et un seul point d'inflexion, pour un ? plus petit que le point maximum, soit

  (157)

tandis que la fonction r(?) est linéairement décroissante.

Par conséquent, pour garantir que l'équation 153 est vraie pour toute valeur ? de l'intervalle [0,1], il s'agit de vérifier que

  (158)

Puisque, par les équations 156 et 157, la dérivée de q(?) est minimale au point ? = 1, tandis que celle de r(?) est constante, il faut évaluer l'inégalité de l'équation précédente à ce point, ce qui donne

  (159)

Or, l'égalité de cette équation est assurée lorsque l'ensemble des paramètres a, ß, p et n satisfait l'égalité de l'équation 127. De plus, lorsque cet ensemble satisfait l'équation 127 sans en vérifier l'égalité, il en est de même pour l'équation 159. Par conséquent, il faut conclure que, sous la contrainte établie par l'équation 127, la valeur propre maximale ? obtenue en présence du paramètre d'oubli est toujours inférieure à celle obtenue en son absence. Ainsi, la condition établie par l'équation 133 sur la valeur minimale des seuils de saturation des unités est toujours suffisante malgré l'introduction du paramètre d'oubli.

Quant à l'interaction entre le paramètre d'oubli et le paramètre de maintien, une contrainte a déjà été établie à l'équation 120. Tel que montré par les résultats de simulations et étant donnée l'équation 152, il est évident que cette condition est plus que minimale. Puisque cette contrainte est sévère, et vu les résultats de simulations, il apparaît clairement que l'étendue des valeurs admissibles pour le paramètre ? est relativement restreinte. Néanmoins, l'analyse qui précède assure que l'introduction du paramètre ? dans le modèle ne rend pas plus sévères les contraintes établies précédemment sur les autres paramètres du modèle.

Le choix de la matrice de départ. Dans l'ensemble des analyses et des simulations précédentes, toutes les connexions sont fixées, avant l'apprentissage, à la valeur nulle. La valeur de ce postulat est critiquable, mais quelques justifications peuvent y être apportées. D'abord, le choix de la matrice nulle est celui qui assure le plus de simplicité à l'analyse du modèle. Deuxièmement, puisqu'il est impossible de postuler une valeur particulière pour la matrice de départ, surtout lorsque le caractère arbitraire de la tâche est considéré, la matrice nulle n'exige que des contraintes minimales sur la pré-adaptation des connexions. En fait, tout modèle qui a pour objectif spécifique d'expliquer le processus d'apprentissage doit tenter de minimiser le recours à une pré-adaptation, du moins tant que les contraintes sur cette dernière ne sont pas clairement identifiées. Néanmoins, il convient d'analyser le rôle que jouerait une pré-adaptation des connexions du réseau. En termes de valeurs et de vecteurs propres, la pré-adaptation signifie la pré-existence d'un espace-stimuli qui privilégie a priori certaines réponses spécifiques. Cependant, deux situations sont à distinguer en fonction de l'absence ou de la présence du paramètre d'oubli.

En l'absence d'oubli, si les valeurs propres associées aux directions responsables des réponses pré-déterminées sont déjà à leur valeur maximale ?, ces réponses sont maintenues et les réponses apprises ne font que s'ajouter puisque, à long terme, l'espace-stimuli augmente son nombre de dimensions et les deux types de réponse sont équivalents pour le réseau. Par contre, si ces valeurs propres sont plus petites que ?, deux possibilités existent. Si elles correspondent à des directions présentes dans le répertoire à apprendre, l'apprentissage en est facilité et ces valeurs propres augmentent jusqu'à atteindre ? et l'espace-stimuli peut subir des rotations en direction des nouveaux stimuli. Par contre, si ces mêmes valeurs propres sont associées à des directions orthogonales à celles présentes dans le répertoire, elles sont maintenues à leur valeur initiale et peuvent, dans certains cas, générer des réponses pré-déterminées, en autant qu'elles dépassent le seuil fixé par le paramètre ?.

En présence d'oubli, le paramètre ? a comme propriété de filtrer progressivement toute direction qui n'est pas présentée de façon récurrente dans le répertoire de stimuli. S'il existe, avant l'apprentissage, un certain espace-stimuli, deux situations peuvent se produire. Ainsi, les directions de cet espace qui correspondent à des caractéristiques présentes lors de l'apprentissage sont maintenues et leur apprentissage est d'autant facilité que les valeurs propres associées sont déjà développées. À l'inverse, les valeurs propres associées à des directions absentes du répertoire de stimuli diminuent progressivement et deviennent nulles. En présence du paramètre d'oubli, la matrice de départ peut donc être quelconque et l'apprentissage vient moduler l'espace-stimuli existant en profitant des directions pertinentes déjà développées, tandis que l'oubli amène la disparition progressive des réponses non-confirmées par l'apprentissage.

Cette propriété du paramètre d'oubli n'est pas spécifique au phénomène de pré-adaptation. En effet, puisque le réseau conserve toujours la capacité d'apprendre, toute modification du répertoire de stimuli amène un changement de la configuration de l'espace-stimuli. Ainsi, lorsque les exemples d'un prototype cessent d'être présentés, le réseau réorganise progressivement l'espace-stimuli de façon à ne fournir de rétroaction que dans la direction des K-1 coins-cibles restants; il y a donc une valeur propre ?K qui retourne progressivement vers la valeur ?. Inversement, après l'apprentissage d'un certain répertoire, le réseau conserve la propriété d'apprendre de nouveaux prototypes. Ainsi, sur présentation régulière d'un K+1e prototype, l'espace-stimuli se réorganise et une K+1e valeur propre émerge progressivement, passant de la valeur ? pour tendre vers ?. En présence du paramètre d'oubli, l'espace-stimuli acquiert donc une telle dynamique que la mémoire qu'il représente est progressivement renouvelable sur toute modification du répertoire de stimuli.

Un dernier point à considérer à propos de la matrice de connexions est le fait que l'analyse du modèle et l'ensemble des simulations reposent sur le postulat que celle-ci est pleinement connectée, c'est-à-dire que chaque unité forme une connexion avec toutes les autres unités du réseau, ainsi qu'avec elle même. Comme précédemment, ce postulat a été posé pour simplifier l'analyse du modèle et parce qu'aucun mode de connexion particulier n'apparaît justifié ou plus avantageux. De plus, la résistance à la déconnexion est une des propriétés des modèles connexionnistes et, à ce titre, le modèle Eidos devrait être en mesure de développer un espace-stimuli adéquat même en l'absence de certaines connexions. Puisque le réseau est toujours en mesure d'apprendre, il faut poser l'hypothèse qu'il peut réajuster son espace-stimuli de façon optimale s'il perd des connexions suite à un certain apprentissage. Une telle hypothèse pourrait faire l'objet d'une étude ultérieure.

Spécificités du répertoire de stimuli. Un dernier aspect à considérer quant aux contraintes de généralisation du modèle est celui des spécificités du répertoire de stimuli. Tout d'abord, il est important de rappeler que l'utilisation de caractères alphabétiques lors des simulations est arbitraire et ne constitue pas un aspect central de l'argumentation. En fait, le modèle Eidos ne doit pas être compris comme un modèle de la reconnaissance de caractères alphabétiques, mais comme un modèle général du processus de catégorisation dans les réseaux neuronaux. Tel que précisé au chapitre trois, ce choix de répertoire repose sur des critères de facilité de représentation, du nombre restreint de dimensions de l'espace-réseau et de suffisance de l'étendue de corrélations inter-prototypes.

En second lieu, il faut mentionner le problème du codage des stimuli et des réponses. Tel que formulé, le modèle est relativement insensible au type de codage utilisé pour représenter les vecteurs présentés au réseau, puisque les propriétés de la règle d'apprentissage garantissent que l'espace-stimuli se développe de façon à représenter intégralement ces vecteurs. Évidemment, la modification du codage entraîne une réorientation de l'espace-stimuli et les particularités du codage ont un impact direct sur les propriétés du répertoire qui sont représentées par les vecteurs propres. Mais puisque les réponses catégoriques du réseau résident dans cet espace-stimuli, il est toujours possible d'effectuer l'opération inverse de décodage.

Le codage a aussi un impact sur la structure de corrélation entre les prototypes. Mais, la règle d'apprentissage assure toujours la discrimination de deux prototypes linéairement indépendants et ce, peu importe leur degré de corrélation. Cette propriété est illustrée par les résultats des simulations où l'étendue des coefficients de corrélation est vaste, allant, en valeur absolue, de 0,03 à 0,77.

Une autre spécificité à préciser est le rapport entre le nombre de prototypes à apprendre et le nombre d'unités qui forment le réseau. Une première contrainte est établie dans la définition même du problème, selon laquelle la dimension de l'espace-stimuli (K) doit être inférieure à celle de l'espace-réseau (M). Or, plus le rapport K/M est petit, plus la sélectivité du réseau est bonne. Il est important de noter que, avec la méthodologie utilisée, ce rapport vaut environ 25%, ce qui est relativement élevé par rapport à ce qu'emploient la plupart des autres modèles connexionnistes. En fait, par rapport aux systèmes nerveux réels, les contraintes sur le paramètre M sont peu importantes vu le nombre de cellules nerveuses disponibles. Par contre, selon l'équation 120, le paramètre K place une contrainte sévère sur la valeur minimale du paramètre d'oubli.

Un autre point à souligner est celui de la norme des stimuli. L'analyse théorique et l'ensemble des simulations reposent sur le postulat que les prototypes sont de norme unitaire. Une fois de plus, ce postulat n'est fait que pour des fins de simplification du modèle et il est démontrable qu'il n'en change pas les propriétés, mais seulement les contraintes sur les différents paramètres. Ainsi, soit z un vecteur-prototype de norme t qui peut s'exprimer sous la forme

  (160)

où x est le vecteur de norme unitaire et de même direction que z. La règle d'apprentissage de l'équation 15 devient alors

  (161)

Ce changement modifie la fonction f(?) de l'équation 106 qui devient

  (162)

Cette équation possède les mêmes propriétés que celle définie précédemment. Ces deux fonctions sont identiques si les paramètres a et ß de l'équation 162 sont respectivement égaux aux paramètres a et ß de l'équation 106 divisés par t2; sous cette condition, ? n'est pas modifiée.

Mais l'équation 162 nécessite la révision des diverses contraintes sur les paramètres du modèle. Pour les quatre paramètres fondamentaux, la condition de l'équation 126 devient

  (163)

Or, puisque ? est identique, cette condition devient

  (164)

Quant à la contrainte sur le paramètre ?, l'équation 132 devient

  (165)

et puisque ? est identique, alors

  (166)

De plus, par le même type d'analyse que précédemment, il est démontrable que ces conditions sont suffisantes en présence des paramètres de maintien et d'oubli.

L'analyse qui précède amène une précision supplémentaire: si l'apprentissage se fait à partir d'exemples, la norme maximale à considérer pour déterminer la valeur minimale du paramètre ? doit être celle du vecteur-exemple dont la norme peut être la plus élevée. Celui-ci est un vecteur propre placé sur un axe, auquel est ajouté un vecteur-bruit b de même direction et de norme pt. Par conséquent, la condition de l'équation 166 devient

  (167)

Quant à la méthode utilisée dans les simulations pour générer les exemples, elle se veut la plus générale possible et suppose que ceux-ci se distribuent normalement, dans l'espace-réseau, autour du prototype. Cette supposition s'appuie sur le postulat que les différents exemples d'un prototype sont générés par une somme de détails indépendants. Dans le cas où cela serait justifié, d'autres types de distribution pourraient être utilisés, mais il demeure que la règle d'apprentissage du modèle privilégierait la formation de prototypes correspondant à la moyenne multidimensionnelle de ces distributions. Quant à la proportion de bruit utilisée pour créer les exemples, elle détermine la qualité de l'espace-stimuli et la performance lors du rappel. Il convient cependant de souligner que les proportions utilisées lors des simulations sont élevées puisqu'elles atteignent un niveau où le rapport signal/bruit vaut 1. Il semble donc que la méthodologie employée en simulation pour manipuler le bruit ne soit pas déterminante des principales propriétés du modèle.

Deux autres facteurs à considérer sont la fréquence et l'ordre de présentation des stimuli puisqu'ils déterminent la vitesse d'apprentissage des différents prototypes. En l'absence d'oubli et tant que l'apprentissage n'est pas stabilisé, l'espace-stimuli privilégie, en termes de magnitude des valeurs propres, les directions associées aux prototypes présentés à plus haute fréquence. De plus, l'ordre de présentation détermine directement l'ordre de l'apprentissage. Lorsque l'apprentissage est stabilisé une telle discrimination n'existe plus. Par contre, en présence du paramètre d'oubli, la fréquence et l'ordre de présentation, et plus spécifiquement la récence, sont toujours reliés à la magnitude des valeurs propres associées aux vecteurs propres de l'espace-stimuli. La méthodologie employée lors des simulations, selon laquelle les exemples sont présentés selon un ordre aléatoire et à fréquence équivalente, n'a pas permis d'étudier systématiquement ces effets. Des études ultérieures devront contrôler ces facteurs afin d'en identifier explicitement les impacts et les propriétés.

Le dernier point à discuter est l'identité directe entre les vecteurs-prototypes et les coins de l'espace-réseau. En effet, l'analyse et les simulations reposent sur le postulat que le vecteur qui représente un prototype est précisément orienté en direction d'un coin de l'espace-réseau. Ce postulat est discutable, mais il est possible d'entrevoir que les propriétés du modèle ne seraient pas affectées par le rejet de celui-ci. Dans le cas de l'apprentissage à partir des prototypes, la règle d'apprentissage assure que l'espace-stimuli qui se développe est l'espace minimal qui contient tous les vecteurs-prototypes. Or, si ces vecteurs sont orientés dans des directions arbitraires, l'espace-stimuli ne peut pas faire intersection avec les coins-cibles de l'espace-réseau. Cependant, celui-ci passe par certains quadrants de l'espace-réseau et, puisqu'à chaque quadrant correspond un coin, celui-ci pourrait devenir le coin-cible. Ainsi, sous l'action de la rétroaction positive, le vecteur-état se déplace en fonction de l'espace-stimuli jusqu'à l'atteinte du seuil de certaines unités, donc jusqu'à l'endroit où l'espace-stimuli croise les murs de l'espace-réseau. À ce moment, la règle de transmission force le vecteur à quitter l'espace-stimuli pour converger vers l'état-stable le plus près, soit le coin du quadrant où il se trouve. Dans cette situation, la réponse fournie ne correspond plus exactement au prototype, mais en demeure la meilleure approximation. Lorsque l'apprentissage se fait à partir d'exemples, la dominance des ?m permet d'affirmer que le réseau se comportera de façon similaire. En fait, dans cette situation, l'espace-stimuli ne fait pas intersection avec les coins-cibles puisque, même si les vecteurs-prototypes sont orientés vers les coins, ils ne sont jamais présentés au réseau et il est rare qu'un exemple y soit directement orienté. Les résultats de la troisième simulation montrent que la corrélation entre les vecteurs propres associés aux ?m et l'espace engendré par les vecteurs-prototypes est élevée, mais non parfaite. Il semble donc que l'espace-réseau définit un nombre très élevé de réponses possibles, de l'ordre de 2M et, par apprentissage, l'espace-stimuli identifie les états stables qui sont les meilleures approximations des tendances moyennes des distributions de stimuli qui lui sont présentés. Néanmoins, des études ultérieures devront identifier systématiquement l'impact de telles modifications sur la performance du modèle.

En résumé, l'analyse du rôle des différents paramètres du modèle indique que celui-ci possède un bon degré de généralisation. Il est donc clair que les résultats de simulations obtenus ne peuvent être attribuables qu'aux seules spécificités méthodologiques. De plus, l'identification des contraintes sur les paramètres montre qu'elles sont peu sévères, sinon que, semble-t-il, dans le cas du paramètre d'oubli. L'analyse de ces contraintes permet également d'identifier les conditions qui permettent d'optimiser, si besoin est, certaines propriétés du modèle, telles que la vitesse d'apprentissage ou le temps de réponse.

Notes à propos de la plausibilité biologique du modèle

Avant de conclure, il convient de commenter la pertinence du modèle quant à sa capacité d'expliquer le processus de catégorisation à l'oeuvre dans les systèmes nerveux biologiques. Or, même si, comme tout modèle théorique, le modèle Eidos est une simplification utile mais grossière, plusieurs points renforcent sa validité d'apparence et ce, tant aux niveaux structural et fonctionnel qu'à celui du mode de fonctionnement proposé.

Au niveau structural. Sur le plan structural, le modèle est peu exigeant et s'inspire largement des observations effectuées sur l'architecture des systèmes nerveux. En effet, le caractère massivement parallèle et distribué d'unités simples, analogiques et non spécifiques est une organisation connue des cellules nerveuses. Bien que le modèle ne tienne pas compte du haut degré de redondance de ces cellules, il est possible que, si à chacune de ses unités correspond un groupe de neurones redondants, ses propriétés demeurent inchangées, sinon qu'il acquiert un plus haut degré de fiabilité. À ce niveau, contrairement à beaucoup de modèles connexionnistes, le modèle proposé n'exige pas le postulat de la nécessité des unités dites cachées ou de l'organisation multicouche. Bien que n'allant pas à l'encontre de ce type d'architecture, le modèle Eidos montre qu'un haut degré d'organisation peut être réalisé avec un seul groupe d'unités inter-connectées.

Toujours au niveau architectural, il a été discuté au chapitre deux du peu de contrainte de la règle d'apprentissage sur le mode de connectivité entre les unités. En effet, bien que le modèle suppose deux sortes de modification, celles-ci peuvent être réalisées par plusieurs types d'organisation synaptique. Encore là, il est probable qu'à chaque connexion correspond, en fait, un arrangement de plusieurs synapses.

Mais, l'atout majeur du modèle Eidos est d'éviter le postulat d'existence de deux structures peu crédibles: l'homuncule interne et le catégoriseur externe. En effet, aucun homuncule n'existe pour déterminer le type de stimuli à apprendre ou pour décider que l'apprentissage est terminé. De plus, comme le montre la troisième simulation, les stimuli peuvent être imprévisibles et non catégoriques, mais ceci n'empêche pas le système de construire un espace-stimuli déterminé par des états prototypes, alors que ces prototypes n'existent possiblement pas dans l'environnement.

Au niveau du fonctionnement. Sur le plan du fonctionnement, le modèle impose plusieurs contraintes. Ainsi, la règle d'apprentissage suggère que la modification des connexions est fonction de l'activité pré- et post-synaptique. Bien que parfois remis en question, ce type de modification est toujours réalisable au plan fonctionnel. De plus, il est le moins exigeant sur l'organisation du réseau puisqu'il ne dépend que de l'information disponible localement. Quant aux paramètres de maintien et d'oubli, il est fort plausible que des structures biologiques, comme nombre d'autres structures physiques, offrent une résistance au changement. En effet, l'éloignement par rapport à un niveau de base, ainsi que la conservation de cet état, exigent de l'énergie. Mais il est intéressant de noter que, si ces phénomènes avaient été observés en dehors du cadre offert par le modèle, ils auraient probablement été qualifiés de facteurs non optimisants pour le système. À l'intérieur du modèle, ils apparaissent comme des composantes essentielles au bon fonctionnement du réseau.

Un point de non-réalisme qui peut être discuté est le caractère discret du temps. Évidemment, dans les systèmes nerveux, les phénomènes se déroulent en temps continu, sinon il faudrait supposer qu'une horloge interne synchronise chacun des événements. Une fois de plus, un tel postulat n'a été posé que pour simplifier l'élaboration du modèle et sa simulation sur des ordinateurs conventionnels fonctionnant de façon discrète. De plus, en assumant que l'intervalle de temps qui sépare deux itérations est suffisamment court par rapport au délai du phénomène (changement synaptique, rappel, etc.) dans son ensemble, l'approximation discontinue peut être suffisamment précise.



Figure 27. Interprétation de la règle d'apprentissage lorsque le déroulement du temps est continu.

De façon informelle, il est possible de transposer le modèle dans un monde à temps continu. La figure 27 illustre une telle proposition où l'ampleur relative et la direction du changement synaptique sont présentées en fonction du temps. Comme le propose la règle d'apprentissage du modèle, le changement hebbien est plus rapide et plus intense que le changement anti-hebbien. Par rapport à la règle de l'équation 15, les paramètres p et n correspondent respectivement aux instants où les courbes de changement hebbien et anti-hebbien atteignent leur maximum, tandis que les paramètres a et ß correspondent à des facteurs d'échelle qui déterminent la valeur de l'intégrale de ces mêmes courbes. La règle d'apprentissage peut donc être reformulée dans les termes de la fonction appelée changement total dans la figure. Quant à la règle de transmission, elle est aisément transférable en temps continu puisqu'elle n'implique que la sommation d'entrées. Il en est de même pour les phénomènes de décroissance d'activité et d'oubli, représentés par les paramètres ? et ?, puisque ces derniers dépendent d'une fonction exponentielle qui est elle-même continue.

Au niveau fonctionnel. Sur le plan fonctionnel, la validité d'apparence du modèle est évidente puisque c'est cette question qui en a amené le développement. En effet, vue sous l'angle de la relation entrée/sortie, le modèle Eidos montre qu'un réseau d'unités simples peut, par apprentissage, fournir des réponses catégoriques à des stimuli variables et a priori imprévisibles.

Développements ultérieurs

La discussion qui précède soulève certaines difficultés du modèle Eidos et propose des pistes que les prochaines études devront explorer. Mais à plus long terme, plusieurs recherches seront nécessaires afin d'en assurer la validité externe. Celles-ci devront porter tant sur son développement théorique que sur sa validation empirique.

Développement théorique. Sur le plan théorique, plusieurs points importants sont à élucider. Ainsi, tel que précisé dans la section précédente, il est nécessaire d'évaluer si l'approximation en temps discontinu est correcte. De plus, l'analyse formelle de l'impact du paramètre d'oubli doit être approfondie. En effet, son introduction dans le modèle fournit une dynamique très intéressante, mais fort complexe puisque les valeurs qu'il peut prendre doivent être déterminées numériquement et leur étendue semble relativement restreinte. Mais il est justifié de se demander si cette sévérité n'est pas qu'apparente; l'analyse de la relation entre ce paramètre et les autres paramètres du modèle est essentielle et devrait permettre d'éclaircir ce point.

Cependant, le point crucial à développer est la reformulation de la règle de transmission. En effet, le modèle postule que les états invariants sont toujours des coins-cibles de l'espace-réseau. Par définition, le coin représente un état où toutes les unités du réseau sont à un niveau d'éloignement maximal de leur niveau de base, c'est-à-dire qu'elles sont au summum de leur excitation ou de leur inhibition. Or, cette situation ne décrit probablement pas adéquatement les véritables états invariants des systèmes nerveux. En reformulant la règle de transmission, ces états pourraient être définis comme des points d'équilibre (des attracteurs) de l'espace-réseau qui seraient engendrés par l'espace-stimuli, éliminant ainsi l'importance accordée au paramètre de saturation des unités. En reprenant le même type d'analyse que celle qui a permis de proposer la règle d'apprentissage du modèle Eidos, il serait possible de rechercher ces points d'équilibre dans l'interaction entre des forces antagonistes. Ainsi, par exemple, l'espace-stimuli pourrait est caractérisé à la fois par des valeurs propres positives et négatives, forçant ainsi des points d'équilibre entre une rétroaction explosive et implosive. Dans cette proposition, la composante temporelle paraît être un paramètre aussi crucial que dans le cas de la règle d'apprentissage proposée ci-dessus. Cependant, l'analyse détaillée de cette modification de la règle de transmission nécessite une étude complète en soi puisqu'il faudra s'assurer de ses conséquences et de ses propriétés sur la définition et la performance du modèle Eidos.

Validation empirique. Afin de s'assurer de la pertinence du modèle Eidos comme cadre d'explication des processus effectués par le système nerveux, il devra éventuellement démontrer une solide validité empirique. Cependant, il est peut-être un peu tôt pour générer des hypothèses précises dont la falsification remettrait en cause le modèle proposé. En fait, le modèle contient suffisamment de paramètres libres qui pourraient en permettre l'ajustement à nombre de données empiriques. Évidemment, la formulation du modèle, de même que les résultats obtenus lors des simulations, pourraient être invoqués pour expliquer un grand nombre de données empiriques présentées dans la littérature portant sur la catégorisation (e.g.: Franks et Bransford, 1971; Homa, Sterling et Trepel, 1981; Posner et Keele, 1968, 1970; Rosch et Mervis, 1975; Strange, Keeney, Kessel et Jenkins, 1970; voir aussi Omohundro et Homa, 1981).

Mais avant d'effectuer un tel lien, il est important de développer un modèle empirique qui définirait les contraintes sur les hypothèses empiriques spécifiques et propres au modèle Eidos. Ainsi, par exemple, il apparaît invraisemblable que, dans sa formulation actuelle, le modèle soit en mesure de générer des hypothèses d'ordre quantitatif. Néanmoins, il pourrait permettre l'élaboration de quelques hypothèses de type ordinal telle que, par exemple, la prédiction de l'existence de points critiques précis qui détermineraient la formation des catégories. Les recherches ultérieures devront donc tenter d'identifier ces contraintes afin d'assurer que le modèle Eidos explique bien un processus réellement à l'oeuvre dans le système nerveux des organismes vivants.

Suite > Conclusion
